﻿ Ce fel de date sunt necesare și de ce? Accesoriile ascunse ale traducerii automate Dan Cristea Universitatea „Alexandru Ioan Cuza“ din Iași, Facultatea de Informatică Academia Română, Institutul de Informatică Teoretică dcristea@info uaic ro ELRC Workshop, Bucureș, 23 03 2016 1 Ce fel de date sunt necesare și de ce? Accesoriile ascunse ale traducerii automate Dan Cristea Universitatea „Alexandru Ioan Cuza“ din Iași, Facultatea de Informatică Academia Română, Institutul de Informatică Teoretică dcristea@info uaic ro ELRC Workshop, Bucureș, 23 03 2016 2 Traducerea vis-à-vis de Big Data • Marea provocare a lumii Big Data: – traducătorii profesioniști sunt puțini și scumpi, – experții umani traduc, în medie, 2-3 000 cuvinte pe zi, – companiile: milioane de cuvinte/zi, – TA este încă imperfectă • Soluția? – o combinație mașină-om: omul preia TA și corectează imperfecțiuni morfo-sintactice, sensuri eronate, expresii idiomatice și colocviale, nuanțe culturale etc – plasate în cloud-ul mondial, traducerile îmbunătățite vor duce la perfecționarea TA ELRC Workshop, Bucureș, 23 03 2016 3 În ce mod poate mașina să învețe să traducă? • Paradigma predominantă în învățare automată: data- driven § sistemele de TA “învață” din date • Resursele lingvistice: § orice text, din orice domeniu § limba sursă, limba destinație, traduceri între ele => ELRC: focusată în accesarea de date în toate limbile, cu precădere cele din aparatul administrativ, prin programul UE CEF ELRC Workshop, Bucureș, 23 03 2016 4 Cum ar putea mașina să învețe să traducă din date? ELRC Workshop, Bucureș, 23 03 2016 5 Ce tipuri de date sunt de folos în TA? Limba bască ELRC Workshop, Bucureș, 23 03 2016 6 Traducerile ne ajută să învățăm o limbă Bască Română ELRC Workshop, Bucureș, 23 03 2016 7 Ce sunt datele lingvistice? • Orice document ce conține “cuvinte”, de preferat “propoziții” și “fraze”, e g : – romane, reviste, magazine, jurnale, – rapoarte, broșuri, cuvântări, – pagini web, bloguri, – corpusuri, inclusiv paralele și comparabile • Dar și: – colocații – liste de cuvinte, n-grame, tabele de frecvențe – dicționare bilingve etc ELRC Workshop, Bucureș, 23 03 2016 8 Traduceri… ELRC Workshop, Bucureș, 23 03 2016 9 Ce tipuri de date? Traduceri “aliniate” ELRC Workshop, Bucureș, 23 03 2016 10 Ce tipuri de date? Colecții de texte… comparabile EnglishGreekSpanish Τelecommunication occurs Με τον γενικό όρο Una telecomunicación es toda when the exchange of τηλεπικοινωνίες, transmisión y recepción de information between two or (telecommunications), señales de cualquier naturaleza, more entities (communication) χαρακτηρίζεται η κάθε μορφής típicamente electromagnéticas, includes the use of ενσύρματη ή ασύρματη, que contengan signos, sonidos, technology imágenes o, en deﬁnitiva, ηλεκτρομαγνητική, ηλεκτρική, cualquier tipo de información κ λπ , ακουστική και οπτική que se desee comunicar a cierta Communication technology επικοινωνία που distancia uses channels to transmit πραγματοποιείται ανεξαρτήτως information (as electrical απόστασης Por metonimia, también se signals), either over a physical denomina telecomunicación (o medium (such as signal telecomunicaciones, cables), or in the form of Στους σύγχρονους καιρούς, indistintamente) a la disciplina electromagnetic waves αυτή η διαδικασία σχεδόν πάντα que estudia, diseña, desarrolla y περιλαμβάνει την αποστολή explota aquellos sistemas que λεκτρομαγνητικών κυμάτων ή permiten dichas The word is often used in its ηcomunicaciones; de forma λεκτρικών σημάτων από plural form, ηanáloga, la ingeniería de telecommunications, because κατάλληλες ηλεκτρονικές telecomunicaciones resuelve los it involves many different συσκευές, όπως το τηλέφωνο ή problemas técnicos asociados a technologies ο ασύρματος, αλλά παλαιότερα esta disciplina περιελάμβανε τη χρήση Sursa: Wikipedia: Primele propoziții ale articolelor asupra subiectului Telecomunicații, în engleză, greacă și spaniolă DAR aceste texte nu sunt tranduceri ale unei aceleiași surse!! ELRC Workshop, Bucureș, 23 03 2016 11 Ce tipuri de date? Colecții de texte… comparabile EnglishGreekSpanish Τelecommunication occurs Με τον γενικό όρο Unal telecomunicaciónMarcu es toda when the exchange of τηλεπικοινωνίες, niealtransmisión y recepción de information between two or (telecommunications), d Daentiseñales de cualquier naturaleza, more entities (communication) χαρακτηρίζεται η κάθε μορφής annt típicamente electromagnéticas, includes the use of ενσύρματη ή ασύρματη,anub-Sera que contengan signos, sonidos, technology ntel Surpoimágenes o, en deﬁnitiva, ηλεκτρομαγνητική, ηλεκτρική, cualquier tipo de información n κ λπ ,Murallee ακουστική και οπτική Coque se desee comunicar a cierta Communication technology tefagεπικοινωνία Parabl που distancia uses channels to transmitș Șctinaπραγματοποιείται ανεξαρτήτως information (asragoraComp electrical απόστασης Por metonimia, también se signals), eitherDExtm over a physical 06 denomina telecomunicación (o medium (such as signal fro-20telecomunicaciones, cables), or in the2006 form of nts Στους σύγχρονουςL καιρούς, indistintamente) a la disciplina electromagnetic waves gmeACαυτή η διαδικασία σχεδόν πάντα que estudia, diseña, desarrolla y raπεριλαμβάνει την αποστολή explota aquellos sistemas que Fλεκτρομαγνητικών κυμάτων ή permiten dichas The word is often used in its ηcomunicaciones; de forma λεκτρικών σημάτων από plural form, ηanáloga, la ingeniería de telecommunications, because κατάλληλες ηλεκτρονικές telecomunicaciones resuelve los it involves many different συσκευές, όπως το τηλέφωνο ή problemas técnicos asociados a technologies ο ασύρματος, αλλά παλαιότερα esta disciplina περιελάμβανε τη χρήση Sursa: Wikipedia: Primele propoziții ale articolelor asupra subiectului Telecomunicații, în engleză, greacă și spaniolă DAR aceste texte nu sunt tranduceri ale unei aceleiași surse!! ELRC Workshop, Bucureș, 23 03 2016 12 Un exemplu de Portal de resurse lingvistice: COROLA • COROLA (COntemporary ROmanian LAnguage): Corpusul Reprezentativ al Limbii Române Contemporane (1945 à2017) • Portalul: Responsibil pentru comunicații, memorare, procesare și acces – momentan găzduit de un server al Academiei Române – până la sfârșitul anului: găzduit de IDS Mannheim în cadrul unui proiect ﬁnanțat de Fundația Humboldt ELRC Workshop, Bucureș, 23 03 2016 Portalul COROLA: funcțiile de colectare, curare, procesare Portal ELRC Workshop, Bucureș, 23 03 2016 De unde provin datele primare? • Edituri • Autori, bloggeri, web • Studiouri radio • Universități, ministere, administrații publice • Dispuși să “doneze” “datele” lor textuale! ELRC Workshop, Bucureș, 23 03 2016 Fluxul de procesare a datelor: Curator – Provider – Portal Portalul COROLA ELRC Workshop, Bucureș, 23 03 2016 Fluxul de procesare a datelor: Portal – Voluntari - Portal • Curățare • Completare metadate Portalul COROLA ELRC Workshop, Bucureș, 23 03 2016 Datele trebuie documentate: completarea metadatelor CMDI standard Metadata Element Set 1 Document title 2 Author name 3 Publication date 4 Source 5 Source name 6 Translator name 7 Medium 8 Document style 9 Document text domain 10 ISSN/ISBN CMDI – Component MetaData Infrastructure (CLARIN) Un cadru de descriere și reutilizare a metadatelor documentelor ELRC Workshop, Bucureș, 23 03 2016 18 Fluxul de procesare a datelor: Portal (adăugare adnotări) Portalul COROLA• Adnotări: • cuvinte și fraze • părți de vorbire • grupuri • sintaxă • semantică • TOKPOSNP ELRC Workshop, Bucureș, 23 03 2016 pipe-line Etichetare la parte de vorbire (POS tagging) http://nlptools info uaic ro ELRC Workshop, Bucureș, 23 03 2016 Găsirea grupurilor nominale (Noun Phrase chunking) http://nlptools info uaic ro ELRC Workshop, Bucureș, 23 03 2016 Parsare sintactică http://nlptools info uaic ro ELRC Workshop, Bucureș, 23 03 2016 Ulizarea datelor din corpus: Portal (adăugare adnotări) Portalul COROLA ELRC Workshop, Bucureș, 23 03 2016 Concordanțe (KWIC – Key Word In Context) … ELRC Workshop, Bucureș, 23 03 2016 24 Ulizarea datelor din corpus: Portal (adăugare adnotări) Modele de limbă folosite în antrenamentul sistemelor de TA Portalul COROLA ELRC Workshop, Bucureș, 23 03 2016 Volumul resurselor lingvistice inﬂuențează calitatea traducerilor Aprecierea calității (scorul BLUE) Nr pagini de text (mil ) ELRC Workshop, Bucureș, 23 03 2016 26 Traducerea automată: o istorie comercială ate uvc tesl Calitatea i galten țmalara traduceriic r:tă Ctoasl T niilolideu-renL rIțaciă t arate verma0 fattelenictimpe SDsla T eafo0stslatemproîn ète n aera W in +1 AsinslacoectțiislSkypatT anra lnk gere îre Tnrinslo eicara & țo ualalăriucele TraucernTlerab gy gT ngmiadongdmemuo ce stooooa LaAsiInTraGBiTraCCeBaGLWF 19982016 Publicații în Statistical MT-+400 publicații/an Traduceri automate10Mil cuvinte/zi+100Mld cuvinte/zi ’98 ’00 ’02 ’04 ’06 ’08 ’10 ’12 ’14 ’16 ELRC Workshop, Bucureș, 23 03 2016 Cum traduce un traducător comercial acum? ELRC Workshop, Bucureș, 23 03 2016 28 Nu e nevoie să depunem eforturi pentru crearea resurselor Aceste documente există deja: – În limba română: – în edituri, ministere, administrații europene, naționale și locale, spitale, școli, universități, pe web etc – cărți, articole de ziar, din reviste culturale, sportive, ﬁnanciare, religioase etc , legi, rapoarte (medicale, științiﬁce, de activitate etc ) – În traduceri paralele: – în birourile agențiilor naționale, de relații externe, pe web, în universități etc – contracte, convenții de colaborare, legi comunitare, rezumate de teze, articole etc ELRC Workshop, Bucureș, 23 03 2016 29 MESAJUL FINAL Un iceberg analog al circulației datelor textuale există la nivelul României – Ceea ce putem NOI face este să culegem numai din partea văzută a lui – Ajutați-ne să pătrundem în partea nevăzută a icebergului: • uitați-vă la datele dumneavoastră și dintr-un alt unghi și reîmpachetați-le! • colecționați și (eventual) anonimizați documentele dumneavoastră (ascundeți cifrele și numele), apoi donați-le! ELRC Workshop, Bucureș, 23 03 2016 30 MESAJUL FINAL • DAR MAI ALES: Ajutați-ne să facem din procurarea de resurse lingvistice un proces continuu: • achiziția de date lingvistice poate ﬁ transformată într-o fabrică de resurse prin punerea în aplicare a unei legislații vizionare • v legile (109/2007 și 299/2015) asupra reutilizării informațiilor din sectorul public • legea depozitului legal (111/1995) • noi putem automatiza această fabrică • dumneavoastră puteți face legea să funcționeze… • Generarea continuă de resurse lingvistice românești și paralele din producția zilnică de texte ELRC Workshop, Bucureș, 23 03 2016 31 Vă mulțumesc! ELRC Workshop, Bucureș, 23 03 2016 32 